DTG：一种简单有效的Prompt方法，激发大模型思考判断能力！

Original ShuYini AINLPer 2023-07-10

收录于合集 #论文分享 135个

点击上方“AINLPer“，设为星标

更多干货，第一时间送达

引言

尽管我们已经长大成人，但内心深处的孩童永远都存在。愿你在繁忙的生活中也能保持对生活中的美好事物的敏感和热爱。愿你永远保持年轻的心态，享受生活中的每一个美好瞬间。六一快乐，六月加油💪。

今天给大家分享一篇关于大模型提示调优的paper，该文介绍了一种新的大语言模型的提示框架：Deliberate then Generate (DTG)。与现有提示方法不同的是，DTG不仅提供正确信息，而且还会提供包含错误的信息，来引导模型进行自我思考判断。该技术简单有效，可适用于各种文本生成任务。在20多个数据集和7个文本生成任务上进行广泛实验，其中包括摘要、翻译、对话等，实验结果显示DTG在多个文本生成任务上都要优于现有提示方法。

背景介绍

随着模型和语料库规模的不断扩大，大语言模型(LLMs)在自然语言处理的各个领域取得了显著的成功。「考虑到LLMs的规模及其训练成本，探索有效的微调方法以适应下游任务是一个很值得关注的方向」。然而当面对强大的黑匣子LLMs应用时，目前的微调方法会存在一定的局限性，因为它需要访问模型的底层参数以及大量的计算资源支撑。所以现在对于大部分人来说，通过提示的方法调教模型是一个相对主流的方法。

提示是人类与LLMs交互的一种通用方法，通常设计为一种指导LLMs朝着预期输出的指令任务。为了最大限度地利用LLMs在下游任务上的作用，需要精心设计提示，无论是手动设计还是自动设计。提示还提供了一种以自然语言方式与LLMs进行交互的方法，例如让它们利用外部工具、资源和模型，或者在生成中进行思维链式推理(CoT)。

与此同时，一个基于交互过程迭代将先前回答融入提示的研究也正在进行，以此提高LLMs在推理任务上的准确性。「除了多步推理，基本提示仍然被广泛地运用在文本生成任务中，比如机器翻译和摘要」，其中先前的先进方法，例如思维链式推理，在这些任务中已经被证明是无效的。「在本文中，作者提出了DTG，这是一种简单而通用的提示方法，可以在各种文本生成任务中提高模型性能，而不需要特定于任务的设计」。

DTG方法介绍

与传统的正确信息提示不同，DTG方法加入了反馈机制，通过让模型发现文本中的错误并进行改正，提高语言使用能力。具体而言，这种方法分为三步：1）清晰明确地说明要求的任务，给出生成论据的指导；2）提供一个合成文本作为候选输出；3）通过鼓励模型发现潜在的错误并经过自我思考判断改进输出，推动训练过程。上图展示了在摘要任务One-shot情况下，标准提示与本文DTG提示之间的对比情况。可以发现：「DTG的一个显着特点是它强调错误检测而不是即时响应」。DTG不是直接从给定的输入文本生成结果，而是首先根据输入文本和预定义错误类型，从而引导模型做出思考判断的决策，最终输出结果。这个思考判断过程构成了DTG方法的基石。此外，还可以提供一些演示，让LLM了解预期输出（以蓝色突出显示）和测试输入（以红色标记）。「DTG是一种通用的提示方法，只需对提示进行最少的修改即可轻松应用于任何文本生成任务」。如上图说明了用于特定生成任务的提示，表明提示定制是不同任务之间的需要，如黄色突出显示。 DTG的关键部分是合成文本的确定。简单来说，使用基线系统的输出作为合成文本是一种很自然的选择。然而，这样的基线文本只进行微小的修改，不能很好地触发LLM的思考判断能力。此外，「实验发现，候选文本与参考文本之间的相似性越低，生成的文本质量越好」。如上图所示，选择与参考文本具有不同相似性的句子作为合成句子，通常情况下，性能会随着相似性的增加而单调下降。

因此，作者选择一个不包含任何正确信息的句子作为合成文本。可能的候选文本包括一个随机抽样的句子，或者更极端是一个空字符串，即：将“[SYS]”设置为“”。这两种选择都成功地促进了模型思考判断能力，并改善了多个文本生成任务的结果。DTG 具有以下特殊属性，可以引导 LLM 处理各种文本生成任务：

简单：通过LLM 的单步推理即可获得最终结果，无需任何额外资源或成本。
通用：它可以毫不费力地应用于范围广泛的文本生成任务，只需对提示进行最少的调整。

实验结果

1、「语言翻译评估」：下面比较了GPT标准提示和本文DTG提示在Microsoft Translator和WMT SoTA系统中的表现。实验包括1-shot和5-shot两种情况。实验结果显示，本文DTG提示方法符合先前研究的趋势，5-shot比1-shot在大多数语言对中表现更好。2、「摘要生成评估」，分别在CNN/DailyMail和GigaWord这两个广泛使用的摘要任务上进行了评估。结果表明，GPT模型的表现与在下游训练集上进行专门调整的Transformer相当。在Rouge指标方面，DTG相对于Transformer有进一步的提高，这证明了DTG在长期建模任务方面的有效性。3、「风格转换任务」：下表展示了GYAFC数据集中娱乐音乐（EM）和家庭关系（FR）两类风格转换任务的表现。显然，DTG方法促使GPT模型更正不准确的句子并生成更加精确的非正式语句。

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

半年狂赚63亿了，微众银行董事长，还要卷员工

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

关于字节基建

DTG：一种简单有效的Prompt方法，激发大模型思考判断能力！

引言

背景介绍

DTG方法介绍

实验结果

推荐阅读

点击下方链接🔗关注我们

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

半年狂赚63亿了，微众银行董事长，还要卷员工

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

关于字节基建

生成图片，分享到微信朋友圈

DTG：一种简单有效的Prompt方法，激发大模型思考判断能力！

引言

背景介绍

DTG方法介绍

实验结果

推荐阅读

点击下方链接🔗关注我们

您可能也对以下帖子感兴趣